Day 10 . AI生成語音相關應用：TTS/STT 工具介紹

2025 iThome 鐵人賽

DAY 10

生成式 AI

30天從不認識生成式AI到好像稍微可能有點熟悉的過程系列第 10 篇

17th鐵人賽

jiaofish

團隊週三遜咖日

2025-09-17 11:55:25

1004 瀏覽

分享至

今天我要介紹的是跟AI語音生成相關的TTS/STT 工具以及應用
順帶一提，TTS代表（Text-to-Speech），也就是把文字轉換成自然語音；而STT則是（Speech-to-Text），把語音轉換成文字。

AI的語音生成有哪些應用?
AI的語音生成在許多地方都可以用到，像是可以透過 TTS 閱讀文字來幫助視覺障礙者，或是STT 可快速轉寫會議、課程或訪談內容，拿來創作或娛樂都是不錯的選擇。

常見平台與工具
這邊介紹一些網路上比較常見的使用平台以及工具
1.OpenAI Whisper:高準確度的STT並且支援多語言，可以用在會議逐字稿、Podcast 轉文字上。
2.Microsoft Azure Speech:可以提供 TTS & STT，並支援多種語音風格。
3.ElevenLabs:提供TTS，聲音自然，也支援角色訓練。

如何試用
TTS：到 ElevenLabs註冊 https://elevenlabs.io/ ，輸入任何文字，並選擇喜歡的語音風格，就能聽到 AI 念出你的句子。
STT：用 Whisper Web Demo https://huggingface.co/spaces/openai/whisper 上傳音檔或錄音，就可以得到逐字稿。

程式範例
如果想要使用 OpenAI 的 Whisper API 進行 STT 的話，這邊有一個簡單例子

from openai import OpenAI
client = OpenAI(api_key="你的金鑰")

with open("homework.mp3", "rb") as audio_file:
    transcript = client.audio.transcriptions.create(
        model="whisper-1",
        file=audio_file
    )

print("逐字稿：", transcript.text)

這樣就可以獲得homework.mp3的逐字稿了